Coordinate-based implicit neural networks, or neural fields, have emerged as useful representations of shape and appearance in 3D computer vision. Despite advances however, it remains challenging to build neural fields for categories of objects without datasets like ShapeNet that provide canonicalized object instances that are consistently aligned for their 3D position and orientation (pose). We present Canonical Field Network (CaFi-Net), a self-supervised method to canonicalize the 3D pose of instances from an object category represented as neural fields, specifically neural radiance fields (NeRFs). CaFi-Net directly learns from continuous and noisy radiance fields using a Siamese network architecture that is designed to extract equivariant field features for category-level canonicalization. During inference, our method takes pre-trained neural radiance fields of novel object instances at arbitrary 3D pose, and estimates a canonical field with consistent 3D pose across the entire category. Extensive experiments on a new dataset of 1300 NeRF models across 13 object categories show that our method matches or exceeds the performance of 3D point cloud-based methods.
translated by 谷歌翻译
In this paper, we propose and showcase, for the first time, monocular multi-view layout estimation for warehouse racks and shelves. Unlike typical layout estimation methods, MVRackLay estimates multi-layered layouts, wherein each layer corresponds to the layout of a shelf within a rack. Given a sequence of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture outputs segmented racks, the front and the top view layout of each shelf within a rack. With minimal effort, such an output is transformed into a 3D rendering of all racks, shelves and objects on the shelves, giving an accurate 3D depiction of the entire warehouse scene in terms of racks, shelves and the number of objects on each shelf. MVRackLay generalizes to a diverse set of warehouse scenes with varying number of objects on each shelf, number of shelves and in the presence of other such racks in the background. Further, MVRackLay shows superior performance vis-a-vis its single view counterpart, RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP metrics. We also showcase a multi-view stitching of the 3D layouts resulting in a representation of the warehouse scene with respect to a global reference frame akin to a rendering of the scene from a SLAM pipeline. To the best of our knowledge, this is the first such work to portray a 3D rendering of a warehouse scene in terms of its semantic components - Racks, Shelves and Objects - all from a single monocular camera.
translated by 谷歌翻译
与计算机视觉合并的基于无人机的遥感系统(UAV)遥感系统具有协助建筑物建设和灾难管理的潜力,例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性,该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的,导致高利用人力,时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法,该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物,建筑计划形状,建筑计划区域,屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量,可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。
translated by 谷歌翻译
我们在室外环境中自动驾驶的背景下研究了视觉和语言导航(VLN)问题。我们通过明确接地与Textual命令相对应的可通道区域来解决问题。在每个时间戳,该模型预测与中间或最终可通道区域相对应的分割掩码。我们的工作与VLN中的现有工作形成鲜明对比,VLN的现有工作将该任务置于节点选择问题,并且给定与环境相对应的离散连接图。我们不假定这种离散的地图的可用性。我们的工作朝着动作领域的连续性发展,通过视觉反馈提供了解释性,并允许在需要更精细的操作的命令上进行VLN,例如“两辆汽车之间的停车”。此外,我们提出了一种新型的元数据carla-nav,以允许有效的训练和验证。该数据集包括预录制的培训序列以及用于验证和测试的实时环境。我们提供广泛的定性和定量经验结果,以验证所提出的方法的功效。
translated by 谷歌翻译
我们生活的世界充满了技术,而每天都有无人机的进步和使用有效地增加。由于许多应用程序方案,在某些任务中,无人机容易受到外部干扰的影响,例如地面站的连通性丧失,安全任务,安全问题和与交货相关的任务。因此,根据情况,这可能会影响运营并导致无人机的安全着陆。因此,本文提出了一种在动态环境中安全着陆的启发式方法。这种方法的目的是检测安全的潜在降落区 - PLZ,并找出最适合降落的区域。最初,PLZ是通过通过Canny Edge算法处理图像来检测的,然后应用了直径估计值对于每个边缘最小的区域。比车辆间隙更高的斑点被标记为安全PLZ。在该方法的第二阶段中,计算了向PLZ移动的动态障碍的速度,并考虑到达到区域的时间。计算无人机的ETA并在无人机的下降期间,执行动态障碍物。在现实世界环境中测试的方法显示了现有工作的更好结果。
translated by 谷歌翻译
本文描述了对象目标导航任务的框架,该任务要求机器人从随机的启动位置查找并移至目标对象类的最接近实例。该框架使用机器人轨迹的历史记录来学习空间关系图(SRG)和图形卷积网络(GCN)基于基于不同语义标记区域的可能性以及这些区域不同对象类别的发生的可能性。为了在评估过程中定位目标对象实例,机器人使用贝叶斯推理和SRG估计可见区域,并使用学习的GCN嵌入来对可见区域进行排名,并选择接下来的区域。
translated by 谷歌翻译
对象目标导航要求机器人在以前看不见的环境中找到并导航到目标对象类的实例。我们的框架会随着时间的推移逐步构建环境的语义图,然后根据语义映射重复选择一个长期目标(“ where to Go”)以找到目标对象实例。长期目标选择被称为基于视觉的深度强化学习问题。具体而言,对编码器网络进行了训练,可以从语义图中提取高级功能并选择长期目标。此外,我们还将数据增强和Q功能正则化合并,以使长期目标选择更有效。我们在AI栖息地3D模拟环境中使用照片现实的Gibson基准数据集进行了实验结果,以证明与最先进的数据驱动基线相比,标准措施的性能改善。
translated by 谷歌翻译
许多测量机器人和动态障碍状态的商品传感器具有非高斯噪声特征。然而,许多当前的方法将运动和感知的潜在不确定性视为高斯,主要是为了确保计算障碍。另一方面,与非高斯不确定性一起工作的现有计划者不会阐明运动和感知噪声的分布特征,例如偏见以避免有效碰撞。本文通过将避免反应性碰撞解释为碰撞约束违规与Dirac Delta分布之间的分配匹配问题来填补这一空白。为了确保策划者的快速反应性,我们将每个分布嵌入重现Hilbert空间,并将分布匹配重新匹配,以最大程度地减少两个分布之间的最大平均差异(MMD)。我们表明,评估给定对照输入的MMD归结为仅矩阵矩阵产品。我们利用这种见解来开发一种简单的控制抽样方法,以避免动态和不确定的障碍。我们在两个方面推进了最新的。首先,我们进行了广泛的实证研究,以表明我们的计划者可以从样本级别的信息中推断出分布偏差。因此,它使用此见解来指导机器人良好的同型。我们还强调了基本不确定性的高斯近似如何失去偏置估计值,并引导机器人以高碰撞概率为不利状态。其次,我们显示了与以前的非参数和高斯近似反应性碰撞避免碰撞的碰撞方法的拟议分布匹配方法的切实比较优势。
translated by 谷歌翻译
我们提出了一个新型的基于流动合成的视觉致毒框架,从而为微型航空车辆(MAV)避免了远距离的障碍物(MAV)在高大的摩天大楼中飞行。最近的基于深度学习的框架使用光流进行高精度的视觉伺服。在本文中,我们探讨了一个问题:我们可以为这些高精度视觉服务方法设计替代流,从而导致避免障碍?我们重新审视显着性的概念,以识别其他竞争摩天大楼和建筑物之间的攻击线中的高层建筑物作为碰撞障碍。合成的流程用于取代显着对象分割掩码。该流程得以计算,以至于视觉伺服控制器在障碍物周围安全地操纵MAV。在这种方法中,我们使用基于多步跨凝结法(CEM)的伺服控制来实现流量收敛,从而导致避免障碍物。我们使用这种新颖的管道来成功,持久地进行高层建筑,并在模拟和现实的现实世界中实现目标。我们进行了广泛的实验,并将我们的方法与光流和基于短距离的障碍物回避方法进行比较,以证明所提出的框架的优点。可以在https://sites.google.com/view/munocular-obstacle/home上找到其他可视化。
translated by 谷歌翻译
我们认为具有非正度运动学的代理/机器人的问题避免了许多动态障碍。机器人和障碍物的状态和速度噪声以及机器人的控制噪声被建模为非参数分布,因为噪声模型的高斯假设被侵犯在现实世界中。在这些假设下,我们制定了一种强大的MPC,其以使机器人对准目标状态的方式有效地样本机器人控制,同时避免这种非参数噪声的胁迫下的障碍物。特别地,MPC包括分布匹配成本,其有效地将当前碰撞锥的分布对准到某个所需的分布,其样本是无碰撞的。这种成本在希尔伯特空间中作为距离功能构成,其最小化通常导致碰撞锥样品变得无碰撞。我们通过线性化原始非参数状态和障碍物分布的高斯近似来对比较和显示有形性能增益。我们还通过对非参数噪声的高斯近似构成的方法来表现出卓越的性能,而不会对进一步的线性提出进行这种近似的非参数噪声的高斯近似。性能增益在轨迹长度和控制成本方面都显示,其遵守所提出的方法的功效。据我们所知,这是在存在非参数状态,速度和致动器噪声模型存在下的运动障碍的第一次呈现。
translated by 谷歌翻译